課程名稱 |
新聞資料分析 Data Analysis in Journalism |
開課學期 |
106-2 |
授課對象 |
社會科學院 新聞研究所 |
授課教師 |
謝吉隆 |
課號 |
JOUR7085 |
課程識別碼 |
342 M3010 |
班次 |
|
學分 |
3.0 |
全/半年 |
半年 |
必/選修 |
選修 |
上課時間 |
星期三6,7,8(13:20~16:20) |
上課地點 |
新聞103 |
備註 |
,含學術倫理 受試者保護0.50小時 限學士班三年級以上 總人數上限:30人 |
Ceiba 課程網頁 |
http://ceiba.ntu.edu.tw/1062R |
課程簡介影片 |
|
核心能力關聯 |
核心能力與課程規劃關聯圖 |
課程大綱
|
為確保您我的權利,請尊重智慧財產權及不得非法影印
|
課程概述 |
▶︎▶︎▶︎ 由於本學期第一週逢228不上課,故請欲加選的同學填寫https://goo.gl/forms/dxLFfpBnnK1ZCmgx2,將依照本問卷內容決定授權碼名額,次週原則上不另外提供加選。◀︎◀︎◀︎
1. 本課程主要對象為需要進行資料處理與分析的新聞所或傳播領域的學生。學生將知道如何搜集資料做為新聞報導的根據,包含政府開放資料或社群輿情,並自資料中發掘資料分佈與變化特徵來窺探事件現象的成因,藉以產製以資料為基礎的新聞報導。
2. 本課程主要目標為賦予學生有產製資料新聞的數據分析能力。故教學上將以實際案例應用與分析為主,而不著重在技術背景的統計與機率。
3. 課程內容涵蓋資訊處理軟體應用與R程式語言,主要要帶給學生獲取與處理資料、統計分析
與文字或數據資料探勘的能力。
4.
- 由於以無程式經驗者為對象,教師得依學生學習情形調整授課內容,但至少包含以下內容:
- R Programming basics
- Reading files including CSV and JSON formats
- Processing data by apply() family and dplyr package
- Exploratory Data Analysis with ggplot()
- Web crawler skill: getting data by GET and POST
- Web APIs e.g., Google Map, Facebook, and Twitter
- Text processing packages including tidytext and jiebaR |
課程目標 |
▶︎▶︎▶︎ 由於本學期第一週逢228不上課,故請欲加選的同學填寫https://goo.gl/forms/dxLFfpBnnK1ZCmgx2,將依照本問卷內容決定授權碼名額,次週原則上不另外提供加選。◀︎◀︎◀︎
1. 具有資料處理能力,包含獲取、儲存、轉換、與清理資料的能力。
2. 具有獲取政府開放資料與社群資料(例如facebook或ptt)的能力。
3. 具有利用R來對資料進行統計分析與資料探勘的能力。
4. 具有利用R來進行文字分析與探勘的能力。
|
課程要求 |
▶︎▶︎▶︎ 由於本學期第一週逢228不上課,故請欲加選的同學填寫https://goo.gl/forms/dxLFfpBnnK1ZCmgx2,將依照本問卷內容決定授權碼名額,次週原則上不另外提供加選。◀︎◀︎◀︎
1. 修課生未能到課需依學校規定之請假程序請假,經查缺席者一次得扣學期總成績三分。
2. 本門課目的為產製資料新聞,故期末報告需以新聞體例撰寫,並由新聞所上兼任或專任之新聞專業背景教師進行新聞實用性評分。
3. 本課程預設對象為「無程式寫作經驗」且對資料新聞抱有興趣的學生。不建議有程式撰寫經驗者選修,亦不開放旁聽。理工科系學生由於相關程式學習資源多元,建議選修台大校方為培植學生資訊能力開設的精彩CS+X課程系列。 |
預期每週課後學習時數 |
|
Office Hours |
|
指定閱讀 |
- Text mining using r - http://tidytextmining.com/w
- R for data science - http://r4ds.had.co.nz/introduction.html |
參考書目 |
- R Graphics Cookbook http://www.cookbook-r.com/Graphs/
- Best jiebaR introduction http://blog.fens.me/r-word-jiebar/
- Learning R in Y minutes https://learnxinyminutes.com/docs/r/
- Datacamp for R https://www.datacamp.com/courses/tech:r |
評量方式 (僅供參考) |
No. |
項目 |
百分比 |
說明 |
1. |
Assignments |
40% |
- 作業繳交時間一律為作業公布後的五天內繳交,以便助教批改並協助同學回顧作業內容。作業公布七天內可接受補交,然成績以八折計算,次週上課後不再接受補交。 |
2. |
Midterm project |
15% |
Visualizing to explore the data |
3. |
Final Project |
35% |
Applying text mining or machine learning model to final meaningful outomces |
4. |
Quiz |
10% |
|
|
週次 |
日期 |
單元主題 |
第1週 |
2/28 |
288 Peace Memorial day |
第2週 |
3/07 |
Course overview: Installing and using R and RStudio |
第3週 |
3/14 |
R Basic; data types, import/export data |
第4週 |
3/21 |
Reading sheet data: csv, excel |
第5週 |
3/28 |
Reading hierarchical data: json and xml |
第6週 |
4/04 |
Spring break |
第7週 |
4/11 |
Getting data from the web
|
第8週 |
4/18 |
Web Crawler Design |
第9週 |
4/25 |
dplyr, ggplot, and text mining |
第10週 |
5/02 |
Project I presentation |
第11週 |
5/09 |
Statistic analysis basic
t-test, anova, correlation |
第12週 |
5/16 |
Unsupervised learning K-mean Clustering and PCA |
第13週 |
5/23 |
Text mining: Word-Document Frequency and N-gram |
第14週 |
5/30 |
Text mining: Topic modeling |
第15週 |
6/06 |
Text mining: Word2Vec |
第16週 |
6/13 |
Supervised learning: Linear Regression |
第17週 |
6/20 |
Supervised learning: Decision Tree and Random Forest |
第18週 |
6/27 |
Final Project |